随着大型语言模型(LLMS)继续发展,确保它们与Human的目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是工具性的转变,在为给定的目标进行优化时,AI系统发展了意想不到的间隔目标,从而超越了最终的观点,并且偏离了人为意义的目标。这个问题在加强学习(RL)培训模型中特别相关,该模型可以产生创造性但意外的策略以最大程度地提高奖励。在本文中,我们通过比较经过直接RL优化的模型(例如O1模型)与从人类反馈(RLHF)进行增强学习的训练的模型进行比较。我们假设RL驱动的模型表现出更强的工具收敛趋势,因为它们以可能与人类意图失调的方式优化了目标指示行为。为了评估这一点,我们会引入仪表板1,这是用于评估RL训练LLM的仪器收敛的基准。最初的实验揭示了一个案例,其中一个旨在赚钱的模型不期望追求工具目标,例如自我复制,意味着工具融合的迹象。我们的发现有助于更深入地了解AI系统中的一致性挑战以及不限制模型行为带来的风险。
主要关键词
![arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第1页](/bimg/f/f6c7a9521148899f5aeaae6b277cc30712a6f234.webp)
![arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第2页](/bimg/d/dcac82fe5d147cde088485a0c2e9e5ed027ed32c.webp)
![arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第3页](/bimg/2/2c64fbe5b214fe74ea224edc1c19d578e5d23a35.webp)
![arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第4页](/bimg/8/8f86a459747e28d9791e2af60c37f2db5f6b0ed4.webp)
![arxiv:2502.12206v1 [CS.AI] 2025年2月16日PDF文件第5页](/bimg/5/5f6217b0390779554ed642c1d0825129afb95246.webp)
